Régression des moindres carrés partiels

Type	Méthode statistique (d)
Inventeur	Herman Wold

La régression des moindres carrés partiels a été inventée en 1983 par Svante Wold et son père Herman Wold ; on utilise fréquemment l'abréviation anglaise régression PLS (« Partial Least Squares regression » et/ou « Projection to Latent Structure »). La régression PLS maximise la variance des prédicteurs (X_i) = X et maximise la corrélation entre X et la variable à expliquer Y. Cet algorithme emprunte sa démarche à la fois à l'analyse en composantes principales (ACP) et à la régression^{[b 1]}^,^{[i 1]}. Plus précisément, la régression PLS cherche des composantes, appelées variables latentes, liées à X et à Y, servant à exprimer la régression de Y sur ces variables et finalement de Y sur X^{[b 2]}.

Historique

En 1966, Herman Wold propose un algorithme nommé tout d'abord NILES (« Nonlinear estimation by Iterative LEast Squares »), puis NIPALS (« Nonlinear estimation by Iterative PArtial Least Squares ») pour l'analyse en composantes principales^{[b 3]}^,^{[i 1]}.

En 1975 il présente l'approche PLS, pour analyser les données exprimées en J blocs de variables sur les mêmes individus^{[b 4]}.

En 1983, Svante Wold (fils d'Herman Wold) et Harald Martens combinent NIPALS et l'approche PLS pour les adapter à la régression dans le cas où le nombre de variables est très supérieur au nombre d'observations (et où une forte multicollinearité est observée)^{[Note 1]}.

En 1989, Svante Wold, Nouna Kettaneh-Wold, et Bert Skagerberg présentèrent pour la première fois la régression PLS non linéaire^{[i 2]}.

En 1990 M. Stone et R. J. Brooks proposent une méthode paramétrique permettant d'employer la méthode PLS pour la régression linéaire multiple, la PLS et la régression sur composantes principales^{[i 1]}.

Régression PLS linéaire

Modèle

Le modèle de l'approche PLS s'applique sur des blocs de variables continues appelées variables manifestes, chacun de ces blocs sont des observations effectuées sur les mêmes individus. On pense dans ce modèle que chaque bloc de variables peut être résumé par une variable latente. Les variables manifestes peuvent engendrer les variables latentes, elles sont appelées alors variables manifestes formatives, ou bien elles peuvent être engendrées par les variables latentes auquel cas elles sont dénommées variables manifestes réflectives^{[i 3]}. Les variables latentes dites endogènes sont expliquées par les autres variables latentes, les variables latentes explicatives sont dénommées exogènes^{[i 3]}.

Comme les régressions linéaires, la régression PLS prend pour hypothèse le modèle (1)

\mathrm {Y} =\mathrm {X} \mathrm {B} +\varepsilon

On recherche deux séries de matrices T et U de « scores » (cotes), P et Q de « loadings » (charges) tels que

{\begin{aligned}\mathrm {X} &=\mathrm {T} \mathrm {P} '+\mathrm {E} \\\mathrm {Y} &=\mathrm {U} \mathrm {Q} '+\mathrm {F} \\\mathrm {T} &=\mathrm {X} \mathrm {W} ^{*}{\text{,}}\end{aligned}}

D'autre part, les cotes de X sont de bons prédicteurs de Y, ce qui s'écrit (4)

{\begin{aligned}\mathrm {Y} &=\mathrm {T} \mathrm {Q} '+\mathrm {G} {\text{,}}\end{aligned}}

où

X est une matrice n×m de prédicteurs,
Y est une matrice n×p de variables réponses,
T et U sont des matrices n×l de cotes, composantes ou facteurs,
P et Q sont les matrices m×l et p×l des charges,
et les matrices E et F sont les termes d'erreur, présumés être i.i.d. normaux.

S. Wold et coll. expliquent ainsi les différentes matrices de la régression PLS :

Les matrices de cotes T multipliées par les matrices de charges P' sont un bon résumé de X garantissant que les termes de résidus E soient faibles. De même U et Q' sont de bons résumés de Y, minimisant F. Les cotes de X sont aussi de bons prédicteurs de Y (voir équ.(4) ci-dessus)^{[i 4]}.

Les résidus G expriment l'écart entre l'observation et le modèle. On retrouve le modèle de régression multivarié (1)

{\begin{aligned}\mathrm {Y} &=\mathrm {X} \mathrm {W} ^{*}\mathrm {Q} '+\mathrm {F} \\{\text{où }}\mathrm {B} &=\mathrm {W} ^{*}\mathrm {Q} '{\text{,}}\end{aligned}}

Algorithme

L'algorithme PLS, inspiré de l'approche PLS et de NIPALS, est itératif^{[i 5]}. Chaque étape de l'itération produit une composante.

L'algorithme classique de la régression PLS multivariée (PLS2) est défini ci-dessous^{[b 6]} :

Si

a\leqslant \mathrm {rang} (\mathrm {X} )

Étape1 –

\mathrm {X} _{0}\longleftarrow \mathrm {X}

,

\mathrm {Y} _{0}\longleftarrow \mathrm {Y}

Étape2 –

{\text{pour }}h=1,2,\dots ,a

Étape2.1 –

u_{h}\longleftarrow \mathrm {Y} _{h-1}[,1]

Étape2.2 – répéter jusqu'à convergence de

w_{h}

Étape2.2.1 –

w_{h}\longleftarrow \mathrm {X} '_{h-1}u_{h}/u'_{h}u_{h}

Étape2.2.2 – normer

w_{h}

à 1

Étape2.2.3 –

t_{h}\longleftarrow \mathrm {X} _{h-1}w_{h}/w'_{h}w_{h}

Étape2.2.4 –

c_{h}\longleftarrow \mathrm {Y} '_{h-1}t_{h}/t'_{h}t_{h}

Étape2.2.5 –

u_{h}\longleftarrow \mathrm {Y} _{h-1}c_{h}/c'_{h}c_{h}

Étape2.3 –

p_{h}\longleftarrow \mathrm {X} '_{h-1}t_{h}/t'_{h}t_{h}

Étape2.4 –

\mathrm {X} _{h}\longleftarrow \mathrm {X} _{h-1}-t_{h}p'_{h}

Étape2.5 –

\mathrm {Y} _{h}\longleftarrow \mathrm {Y} _{h-1}-t_{h}c'_{h}

La qualité de l'estimation est estimée par validation croisée, ou bien à l'aide du R² ou du Q² de Stone-Geisser^{[b 7]}.

L'interprétation se fait de la même manière qu'en analyse en composante principale, à l'aide de graphes montrant les observations sur les axes des variables latentes^{[i 6]}. Les paramètres t et u sont porteurs des similarités/dissimilarités entre les objets (individus)^{[i 4]}. Toujours d'après S. Wold et coll, les poids w et c donnent des informations sur les corrélations entre Y et X. Les résidus de Y servent à apprécier l'ajustement au modèle, les résidus de X servent à détecter les valeurs aberrantes.

Géométriquement, la régression PLS est une projection sur un hyperplan de l'espace des X, de telle manière que ce plan soit une bonne estimation du nuage de points des X et dont les coordonnées des projections (les p) soient de bons prédicteurs des Y^{[i 4]}.

Régression PLS non linéaire

Article détaillé : Régression non linéaire.

Il y a au moins deux manières d'introduire la non-linéarité dans l'approche PLS : la première consiste en une transformation non linéaire des données d'observations pour ensuite effectuer une régression linéaire PLS sur ces données transformées, la seconde consiste à supposer que les variables latentes t et u sont liées par des relations non linéaires^{[i 2]}^,^{[i 7]}.

Dans la première catégorie se trouvent des méthodes telles que : INLR de Anders Berglund et Svante Wold (« Implicit non-linear latent variable regression ») ajoute les carrés des variables X aux variables prédicteurs^{[i 8]}.

Alors que dans la seconde, on peut lister :

La méthode PLS quadratique, proposée par S. Wold et al. en 1989, qui consiste à remplacer la relation linéaire entre les variables t et u par une relation polynomiale du second degré.
I. E. Frank expose en 1990 le modèle NLPLS (« Non Linear PLS ») où la relation, entre les mêmes variables internes que ci-dessus, est exprimée par des fonctions lissantes.
Toujours S. Wold en 1992, remplace la relation polynomiale de 1989 par une relation via des fonctions splines dans un modèle dénommé SPLPLS^{[i 7]}.
Dans GIFI – PLS^{[i 8]}, on remplace la variable X par une série de variables constituées à partir de X et des classes de valeurs de X, puis on applique la régression PLS sur ces nouvelles variables.

Notes et références

Notes

↑ voir fig.01 pour un exemple de modèle structurel dans l'approche PLS.

Références

Ouvrages spécialisés

↑ Tufféry 2010, p. 396
↑ Tenenhaus 1998, p. 76
↑ Tenenhaus 1998, p. 61
↑ Tenenhaus 1998, p. 233
↑ Tenenhaus 1998, p. 243
↑ Tenenhaus 1998, p. 128
↑ Tenenhaus 1998, p. 237 et suiv.

Articles publiés sur internet

↑ ^{a b et c} [PDF]Séverine Vancolen, « Régression PLS », 2004 (consulté le 17 décembre 2011)
↑ ^{a et b} [PDF](en) Roman Rosipal, « « Nonlinear Partial Least Squares: An Overview » » (consulté le 31 décembre 2011)
↑ ^{a et b} [PDF]Michel Tenenhaus, « L'approche PLS », 1999 (consulté le 16 décembre 2011)
↑ ^{a b c et d} [PDF](en) Svante Wold, Michael Sjöström, Lennart Eriksson, « « PLS-regression: a basic tool of chemometrics » », 2001 (consulté le 31 décembre 2011)
↑ [PDF]Emmanuel Jakobowicz, Addinsoft, « Les Modèles d'équations structurelles à variables latentes », 2009 (consulté le 17 décembre 2011)
↑ [PDF](en) Hervé Abdi, « « Partial Least Squares (PLS) Regression » » (consulté le 30 décembre 2011)
↑ ^{a et b} [PDF](en) Mirtille Vivien, « Approches PLS linéaires et non linéaires pour la modélisation de multi-tableaux : théorie et applications », 2002 (consulté le 2 janvier 2012)
↑ ^{a et b} Marlene Mörtsell, Mårten Gulliksson, « « An overview of some non-linear techniques in Chemometrics » » (consulté le 3 janvier 2012)

Bibliographie

Michel Tenenhaus, La régression PLS : Théorie et Pratique, Paris, éditions Technip, 1998, 254 p. (ISBN 978-2-7108-0735-3, lire en ligne)
Stéphane Tufféry, Data Mining et statistique décisionnelle : l'intelligence des données, Paris, éditions Technip, 2010, 705 p. (ISBN 978-2-7108-0946-3, lire en ligne)

[6] voir fig.01 pour un exemple de modèle structurel dans l'approche PLS.

[tuff396-1] Tufféry 2010, p. 396

[3] Tenenhaus 1998, p. 76

[4] Tenenhaus 1998, p. 61

[5] Tenenhaus 1998, p. 233

[8] Tenenhaus 1998, p. 243

[12] Tenenhaus 1998, p. 128

[MTenenhaus237-13] Tenenhaus 1998, p. 237 et suiv.

[SVancolen-2] {a b et c} [PDF]Séverine Vancolen, « Régression PLS », 2004 (consulté le 17 décembre 2011)

[RRosipal-7] {a et b} [PDF](en) Roman Rosipal, « « Nonlinear Partial Least Squares: An Overview » » (consulté le 31 décembre 2011)

[MTenenhaus-9] {a et b} [PDF]Michel Tenenhaus, « L'approche PLS », 1999 (consulté le 16 décembre 2011)

[SWold-10] {a b c et d} [PDF](en) Svante Wold, Michael Sjöström, Lennart Eriksson, « « PLS-regression: a basic tool of chemometrics » », 2001 (consulté le 31 décembre 2011)

[EJakobowicz-11] [PDF]Emmanuel Jakobowicz, Addinsoft, « Les Modèles d'équations structurelles à variables latentes », 2009 (consulté le 17 décembre 2011)

[HAbdi-14] [PDF](en) Hervé Abdi, « « Partial Least Squares (PLS) Regression » » (consulté le 30 décembre 2011)

[MVivien-15] {a et b} [PDF](en) Mirtille Vivien, « Approches PLS linéaires et non linéaires pour la modélisation de multi-tableaux : théorie et applications », 2002 (consulté le 2 janvier 2012)

[MMortsell-16] {a et b} Marlene Mörtsell, Mårten Gulliksson, « « An overview of some non-linear techniques in Chemometrics » » (consulté le 3 janvier 2012)

[b 1]

[i 1]

[b 2]

[b 3]

[b 4]

[Note 1]

[i 2]

[b 5]

[i 3]

[i 4]

[i 5]

[b 6]

[b 7]

[i 6]

[i 7]

[i 8]